Sesgo tras sesgo: recompensa mecánica en modelos de lenguaje Los modelos de recompensa en IA tienen sesgos. La recompensa mecánica los mitiga con pocos datos. Optimiza la alineación de modelos de lenguaje. 2026-06-02 · 2 min